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档案 数据 化 过 程 中 语义 组 织 的 内 涵 、 特 点 与 原理 解析 


中 国人 民 大 学 信息 资源 管理 学 院 ”北京 100872 


摘 要 : [目的 /意义 ] 档 案 数 据 化 阶段 ,档案 利用 与 服务 需要 满足 用 户 在 数据 层级 的 需求 ,突破 页 面 级 阅读 和 文件 级 利用 
的 限制 ,这 就 要 求 在 组 织 环节 构建 起 语义 层级 的 档案 组 织 新 模式 ,以 实现 对 档案 内 容 、 背 景 与 结构 数据 的 细 颗 粒 
分 析 与 挖掘, 面向 档案 资源 增值 开发 与 智能 化 知识 服务 做 好 资源 、 方 法 与 技术 的 准备 。| 方法 /过程 ] 采 用 文献 调 
研 与 案例 分 析 等 方法 ,立足 档案 数据 化 阶段 特征 ,分 析 档 案 语义 语义 关联 和 语义 组 织 的 基本 内 涵 , 比 较 分 析 档 案 
与 其 他 信息 资源 在 语义 组 织 过 程 中 的 区 别 与 特性 ,探索 在 语义 完整 链 式 关联 以 及 网 络 多 维 原则 下 开展 档案 语义 
向 内 组 织 与 向 外 组 织 的 基本 原理 。[ 结果 /结论 ] 档案 语义 组 织 是 基于 数据 的 含义 与 关联 开展 的 档案 组 织 新 模式 ， 
旨 在 从 档案 资源 的 内 容 、 背景 与 结构 数据 中 发 现 语义 与 语义 关联 。 档 案 语义 组 织 是 实现 档案 数据 化 的 核心 环节 ， 
是 实现 档案 机 器 可 理解 .机 器 可 操作 的 关键 一 步 。 通 过 档案 语义 组 织 , 原 本 离散 、 分 布 .领域 依赖 的 档案 内 容 、 背 
景 与 结构 数据 能 够 含义 明确 化 、 编 码 形式 化 、 关 系 链接 化 ,档案 数据 得 以 被 机 器 可 理解 .可 操作 ,档案 自动 化 关联 
组 织 、 存 储 与 提供 利用 成 为 可 能 ,从 而 最 终 支持 基于 人 机 交互 .机 机 交互 的 档案 资源 智能 化 获取 、 利 用 与 服务 。 
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化 成 离散 的 比特 (bits) ,存储 在 计算 机 系统 或 数据 库 中 
SN 而 非 纸 质 媒介 中 。 档 案 数据 化 则 将 “0”“1” 等 离散 
一 经 过 20 年 的 存量 档案 数字 化 与 增 量 电子 文件 归 的 比特 (bits) 进行 再 组 织 ,形成 结构 化 的 .标准 化 的 、 开 
档 仁 理 ,数字 态 档 案 资 源 储量 已 非常 丰富 " ,但 现 有 的 “| 放 性 的 \ 可 通用 的 数据 对 象 ,并 基于 数据 对 象 的 不 同形 
档 替 组 织 手 段 仅 能 支持 基于 页 面 阅 读 的 文件 级 档案 利 态 与 类 别 开 展 相应 的 机 器 操作 活动 ”。 由 此 可 见 , 档 
本 服务 ,无 法 实现 档案 内 容 的 可 理解 以 及 内 容 、 背 案 数据 化 的 关键 在 于 将 零散 的 比特 (bits) 组织 成 有 合 
里 > 结构 的 关联 性 利用 ,业务 驱动 下 的 档案 如 何 与 文件 | 义 的 、 有 关联 的 数据 集合 , 即 数据 的 组 织 。 这 种 数据 组 
生 夺 背景 建立 联系 ,为 业务 端 提供 信息 “反哺 "以 支持 | 织 的 核心 目标 在 于 使 机 器 可 理解 数据 的 含义 ,并 基于 
业务 决策 ,也 是 档案 管理 向 前 突破 的 关键 问题 。 原 国 “| 此 实现 机 器 对 数据 的 自动 化 操作 。 因 此 从 数据 的 含义 
家 档案 局 局 长 杨 冬 权 曾 指出 :“ 我 想 利用 档案 ,不 用 我 | 层面 开展 数据 组 织 就 尤为 重要 ,这 就 是 本 文 所 探讨 的 
去 找 ,自动 地 就 能 推送 过 来 ,这 就 需要 做 一 件 更 重要 、| 语义 组 织 。 
工作 量 也 更 大 ,意义 和 价值 更 大 的 事情 , 那 就 是 把 档案 信息 资源 组 织 过 程 中 的 语义 技术 应 用 ,是 近年 来 
数据 化 "” 。 这 指出 当前 面临 语义 网 、 人 工 智能 等 新 计 图 档 博 领域 的 一 个 研究 热点 。 现 有 研究 主要 反思 了 信 
算 机 技术 冲击 时 ,档案 数据 化 所 引导 的 新 转型 之 路 将 | 息 组 织 的 不 足 , 主 张 向 更 细 颗 粒 的 信息 组 织 ` 更 智能 化 


要 走向 的 目标 :超越 文件 级 查找 和 页 面 阅读 的 档案 利 
用 局 限 ,为 用 户 提供 更 加 智能 化 的 档案 服务 。 档 案 数 
据 化 是 档案 数字 化 的 更 高 阶段 。 档 案 数 字 化 将 档案 信 
息 由 模拟 或 物理 信号 转变 为 "0”“1 的 数字 形式 ,通过 
扫描 、 计 算 机 文字 处 理 等 将 档案 文本 中 的 固化 对 象 转 


的 信息 传播 与 应 用 转移 ,强调 信息 资源 的 分 类 和 描述 
等 要 向 语义 揭示 及 关系 发 现 的 深层 次 发 展 。 因 此 ， 语 
义 组 织 ” 也 成 为 一 个 被 信息 资源 管理 领域 高 频 讨论 的 
学 术 概念 。 但 遗憾 的 是 ,当前 “语义 组 织 ” 这 一 概念 尚 
未 有 统一 表述 ,有 学 者 从 语义 组 织 的 对 象 人 手 , 认 为 语 
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义 组 织 包括 “语义 描述 ,本体 转化 、 发 布 为 关联 数据 ” 
三 个 层面 的 基本 内 容 中 ;也 有 学 者 针对 不 同 领 域 的 不 
同 信息 资源 类 型 开展 具体 的 语义 组 织 探索 ,包括 :面向 
文化 传播 与 传承 的 非 遗 多 媒体 资源 的 本 体 模型 构建 和 
分 层 语义 描述 中 、 面 向 政府 决策 的 与 情 信息 语义 组 
织 ”、 面 向 e-Science 的 科学 数据 语义 组 织 研究 ”以 及 
科技 报告 语义 关联 研究 "等 。 在 语义 技术 应 用 路 径 层 
面 , 现 有 研究 成 果 的 基本 思路 是 对 信息 资源 进行 知识 
抽取 ,本体 构建 .知识 图 谱 和 本 体检 索 等 。 但 因为 
支持 语义 组 织 的 技术 标准 和 方法 如 语义 网 ,知识 工程 、 
人 工 智能 技术 等 处 在 快速 更 新 之 中 ,学 界 关 于 信息 资 
源 语义 组 织 的 研究 处 在 快速 的 概念 扩展 和 技术 融合 阶 
段 , 也 同时 出 现 了 术语 或 概念 混淆 使 用 等 问题 。 例 如 ， 
元 数据 , 词 表 本体 ,关联 数据 等 概念 反复 出 现在 众多 
研究 成 果 中 ,但 各 中 原理 及 其 与 信息 资源 组 织 变 革 的 
关系 尚未 有 清晰 解释 。 

CS 在 信息 资源 大 领域 的 带动 下 ,档案 领域 也 开始 出 
现 诅 义 技术 应 用 方案 。 例 如 美国 FamilySearch. org 和 
aneestry. com 等 家 谱 网 站 利用 本 体 技术 重 构 家 谱 档案 


何 实现 为 基本 研究 问题 ,采用 文献 调研 与 案例 分 析 等 
方法 ,剖析 档案 组 织 发 展 过 程 中 的 语义 传统 ,并 将 档案 
语义 组 织 与 档案 实体 组 织 ,档案 信息 组 织 相 比较 ,在 数 
据 化 背景 下 定义 档案 语义 组 织 的 内 涵 ,并 基于 档案 资 
源 的 特性 探讨 语义 技术 应 用 于 档案 组 织 中 的 原理 与 原 
则 ,为 档案 数据 化 过 程 中 数据 组 织 的 核心 问题 提供 语 
义 层面 的 解决 方案 。 


2 ”档案 组 织 中 的 语义 组 织 传统 


档案 语义 组 织 是 语义 技术 在 档案 组 织 中 的 新 应 
用 ,是 数据 化 过 程 中 出 现 的 档案 组 织 新 思维 与 新 方法 。 
但 语义 组 织 并 不 是 凭空 出 现 的 ,档案 组 织 长 期 的 发 展 
过 程 中 ,也 形成 了 潜在 的 语义 组 织 传统 ,能 够 为 新 时 期 
的 档案 语义 组 织 发 展 鞠 定 良好 基础 。 
2.1 档案 实体 组 织 中 的 语义 组 织 传统 

档案 实体 组 织 是 针对 档案 物理 实体 (载体 ) 的 组 
织 ,其 目的 是 实现 馆藏 档案 实体 的 序 化 。 在 我 国 ,档案 
实体 组 织 借鉴 了 前 苏联 “国家 档案 全 总 条 例 ” 的 约 
定 “ ,以 全 宗 原 则 为 核心 ,再 依据 档案 实体 特征 分 类 


< 


产 更 ,利用 时 空 关系 等 多 维 语义 关系 的 建立 来 揭示 隐 
藏 在家 谱 档案 数据 中 的 人 物 关 系 和 其 他 知识 ,并 为 用 
闻 晶 供 多 维 检索 。 日 本 神奈川 大 学 非 书写 遗产 中 心 将 
部 入 民俗 用 具 资 料 数据 化 ,并 基于 本 体 技术 构建 民 从 
用 得 数据 库 '" 。2011 年 ,法 国 国家 档案 馆 以 RDF 格 
式 胰 布 了 氢 词 表 , 为 用 户 提供 关联 数据 的 语义 查询 服 
务 > 。 我 国学 者 也 提出 应 用 相关 技术 来 改进 档案 组 
织 3 重 如 类 丽 认为 应 利用 语义 网 技术 实现 数据 转换 . 描 
述 (分 类 ,利用 智能 Agent 技术 为 模糊 性 用 户 进行 服务 
信息 的 整合 优化 5 ; 马 实 源 基于 SWOT 分 析 法 ,分 析 
了 关联 数据 方法 在 档案 知识 服务 中 应 用 的 影响 因素 和 
对 策 ,认为 关联 数据 的 应 用 是 未 来 档案 知识 服务 的 重 
要 方向 。 但 “档案 语义 组 织 " 这 一 概念 的 准确 含义 
以 及 语义 组 织 在 档案 领域 的 独特 内 涵 , 学 者 们 虽 有 讨 
论 但 尚未 有 定论 。 例 如 有 学 者 从 “组 织 什么 "的 问题 
出 发 ,认为 档案 的 语义 组 织 主要 包括 档案 信息 资源 内 
容 体系 和 知识 体系 的 语义 关系 组 织 、 词 汇 体系 与 元 数 
据 体 系 的 映射 关系 组 织 等 方面 "”。 有 的 学 者 则 从 “如 
何 组 织 " 的 问题 出 发 ,认为 档案 的 语义 组 织 流程 包括 元 
数据 语义 转换 .档案 数据 语义 分 析 与 表述 .语义 组 织 
存储 ,语义 检索 与 服务 等 方面 "”。 这 样 的 内 涵 实 际 上 
是 操作 路 径 ,档案 的 语义 .语义 关联 和 语义 组 织 到 底 是 
指 什么 , 尚 无 明确 答案 。 

在 这 样 的 背景 下 ,本 文 以 档案 语义 组 织 是 什么 、 如 


立 卷 。 其 基本 环节 包括 划分 全 宗 ,全 宗 内 档案 分 类 、 立 
卷 以 及 卷 内 排列 ,从 而 对 档案 的 来 源 \ 时 间 、 内 容 和 形 
式 特征 等 进行 分 类 。 和 宝 荣 . 陈 兆 祺 、 松 世 勤 提出 的 档 
案 整 理工 作 的 内 涵 影 响 至 今 ,大 体 分 为 “系统 化 和 基本 
编目 两 大 部 分 ”, 并 以 “按照 文件 之 间 的 历史 联系 整理 
档案 ”为 原则 … 。 这 里 的 “历史 联系 "是 指 档案 案卷 内 
文件 之 间 包 括 来 源 方面 .时 间 方 面 、 内 容 方面 和 形式 方 
面 的 联系 ,档案 实体 大 多 基于 档案 来 源 ( 组 织 机 构 )、 
时 间 ( 年度) 内 容 ( 事 由 ) 和 形式 (种 类 ) 分 类 ,以 案卷 
形式 被 整理 排 架 , 其 中 内 容 ( 事 由 ) 的 分 类 就 是 在 档案 
内 容 主 题 的 语义 层面 的 分 类 组 织 方法 。 
2.2 档案 信息 组 织 中 的 语义 组 织 传统 

档案 信息 组 织 是 针对 档案 检索 信息 的 组 织 ,其 目 
的 是 实现 档案 检索 信息 的 序 化 。 档 案 信息 组 织 经 历 了 
较 长 历史 ,分 类 卡片 . 比 孔 卡 、 穿 孔 卡 ,边缘 穿孔 卡 等 都 
是 手工 管理 环境 下 重要 的 档案 信息 组 织 工具 ,档案 信 
息 组 织 的 结果 一 般 表 现 为 档案 目录 索引、 编 研 成 果 等 
二 ,三 次 文献 。 分 类 法 和 主题 法 是 档案 信息 组 织 最 重 
要 的 两 大 方法 ,而 这 两 种 方法 都 是 在 语义 层面 .从 档案 
内 容 分 析 入 手 进 行 档案 标 引 和 检索 的 组 织 方法 ,无 论 
是 分 类 法 中 的 类 号 和 类 名 ,还 是 主题 法 中 的 主题 词 ,本 
质 上 都 是 对 档案 所 反映 概念 的 表达 。 其 中 ,档案 信息 
分 类 体系 是 一 种 列举 已 知 类 目 并 逐 级 展开 的 层 累 制 的 
号 码 检索 体系 ,以 概念 的 划分 和 概括 的 原理 为 基础 , 反 
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映 档案 内 容 的 从 属 派生 与 平行 关系 。 为 了 在 馆藏 
系统 化 的 基础 上 统一 档案 检索 的 分 类 方法 ,突破 档案 
实体 分 类 中 的 年 度 .组 织 机 构 .类 型 等 形式 特征 分 类 限 
制 《 中 国 档案 分 类 法 》( 简称 中档 法 ” ) 提出 了 “以 统 
一 分 类 原则 与 标记 制度 为 前 提 , 以 职能 分 工 为 分 类 标 
准 和 依据 ,结合 体系 分 类 法 和 分 面 组 配 法 并 具有 半分 
面 组 配 性 质 ”” 的 档案 分 类 体系 。 这 种 “职能 分 工 ”的 
分 类 原则 实际 上 是 从 档案 所 参与 的 社会 职能 的 角度 来 
分 析 档案 内 容 的 语义 。 另 一 方面 ,档案 信息 组 织 的 主 
题 法 通过 自然 语词 来 描述 档案 中 的 各 种 概念 ,并 将 各 
种 概念 按 字 顺 排列 。 与 分 类 法 的 层级 组 织 方式 不 同 ， 
主题 法 采用 分 面 组 配 的 方式 来 揭示 档案 主题 ,并 以 规 
范 化 的 自然 语词 作为 标 引 和 排 检 依 据 ,实质 上 是 一 种 
档案 主题 词典 ""。 这 种 主题 词典 在 当下 具有 很 强 的 
锋 变 为 “数据 词典 "一 一 本 体 的 洪 力 。 
2 翌 - 网 络 档案 信息 组 织 中 的 语义 组 织 传统 
0 无论 是 档案 实体 组 织 中 的 内 容 分 类 ,还 是 档案 信 
卓 强 织 中 的 分 类 法 与 主题 法 ,虽然 都 是 对 档案 内 容 、 主 
题 的 语义 层面 的 组 织 ,但 其 类 目 或 主题 词 都 是 以 人 工 
E 昌 或 自然 语言 表达 的 ,是 人 可 理解 的 。 这 种 语义 组 
级 章法 主要 面向 人 而 非 机 器 。 以 机 器 可 理解 的 方式 开 
恨 错 案 组 织 首先 萌发 在 网 络 档案 资源 的 管理 中 。 网 络 
档案 资源 组 织 需要 对 互联 网 上 大 量 分 散 无 序 的 档案 信 
息 示 行 筛选 .排序 .著录 、 标 引 、 分 析 \ 存 储 \ 利 用 ,使 之 
驳 芝 系统 化 的 结构 '” 。 传 统 依赖 手工 和 专家 的 组 织 
方 起 无 法 应 对 海量 网 络 档案 资源 的 处 理 需求 ,自动 化 
组 级 手段 包括 自动 分 类 .自动 标 引 、 自 动 编制 和 管理 分 
类 志 . 词 表 , 自 动 编制 目录 .索引 .文摘 以 及 自动 搜索 网 
上 信息 源 等 ,能 够 更 有 效 地 处 理 文本 、 图 形 、 图 像 声 
音 .动画 、 视 频 等 复杂 多 媒体 信息 ,而 超 文本 链接 能 
4 这 些 复杂 资源 关联 起 来 ,形成 更 大 范围 的 资源 网 
络 ”。 但 是 这 种 网 络 档案 资源 的 网 状 组 织 和 关联 , 仍 
然 是 文件 层级 的 , 超 文 本 链接 本 身 并 不 具有 语义 ,网 络 
档案 资源 间 为 什么 具有 这 样 的 关系 和 链接 ,仍然 需要 
资源 利用 者 自行 判断 。 

借助 网 络 档案 资源 组 织 的 探索 , 越 来 越 多 的 学 者 
开始 关注 语义 网 的 发 展 ,并 借助 语义 技术 改进 以 元 数 
据 为 核心 的 档案 资源 组 织 方法 。 其 中 ,学 者 们 讨论 最 
多 的 就 是 如 何 利用 本 体 、 关 联 数据 等 语义 网 技术 来 进 
行 档案 信息 的 标识 .描述 和 推理 ,解决 档案 信息 与 
档案 信息 系统 的 异 构 问 题 2 ,或 者 将 其 应 用 到 数字 档 


从 人 研究 结论 上 看 , 现 有 研究 成 果 已 经 提出 了 档案 组 织 
“应 该 用 本 体 .关联 数据 ” ,为 本 文 的 研究 提供 了 重要 
基础 ,但 现 有 成 果 更 多 是 在 信息 资源 的 普遍 框架 下 讨 
论语 义 技术 的 应 用 , 少 有 成 果 从 档案 资源 的 特殊 属性 
出 发 探讨 档案 语义 组 织 区 别 于 一 般 信息 资源 语义 组 织 
的 内 涵 , 并 独立 探讨 档案 领域 的 语义 组 织 方 案 。 

由 此 可 以 看 出 ,档案 语义 组 织 在 档案 实体 组 织 、 档 
案 信息 组 织 以 及 互联 网 环境 中 都 有 特定 的 内 涵 , 在 档 
案 数据 化 的 整体 趋势 下 ,档案 语义 组 织 将 更 明确 地 、 从 
含义 层面 针对 档案 本 里 的 数据 和 描述 档案 的 数据 开展 
组 织 , 将 不 再 辕 于 分 类 法 或 主题 词 表 的 制定 ,而 更 灵活 
地 包容 多 种 语义 技术 ,以 形式 化 语言 面向 机 器 理解 实 
现 语义 层 面 的 组 织 。 


3 ”档案 语义 组 织 的 内 酒 


特 里 库 克 曾 说 :“ 通 过 向 世界 展示 如 何 避 和 免 淹 沉 
在 无 意义 的 数据 “海洋 ' 里 和 如 何 探 求 相 互 关 联 的 意 
义 或 知识 ,来 重新 肯定 我 们 专业 的 适用 性 。”” 这 种 寻 
找 关 联 的 思维 ,深刻 影响 了 过 去 20 年 来 档案 领域 的 理 
论 研究 与 实践 探索 ,如 今 语义 技术 与 数据 管理 思维 的 
新 潮 ,将 "事务 "与 “关系 "重新 拉 回 数据 组 织 的 核心 位 
置 ” 。 在 新 的 计算 机 环境 中 讨论 “相互 关联 的 意义 或 
知识 ”, 就 是 讨论 相互 关联 的 具有 明确 含义 的 数据 以 及 
经 过 关联 组 织 后 形成 的 知识 网 络 , 这 是 本 文 探讨 档案 
语义 组 织 的 本 质 追 求 。 因 此 ,档案 语义 组 织 首先 要 从 
数据 的 含义 即 语义 、 具 有 明确 含义 的 数据 的 关联 即 语 
义 关联 ,以 及 如 何 组 织 数据 的 含义 与 关联 即 语义 组 织 
的 内 涵 谈 起 。 
3.1 档案 语义 的 内 酒 

语义 是 指数 据 的 含义 ,需要 遵循 一 定语 法 的 形式 
化 语言 来 表达 , 即 这 种 含义 可 以 被 机 器 所 理解 ,一 般 基 
于 自然 语言 描述 的 数据 的 含义 则 需要 转化 为 形式 化 语 
言 的 表达 。 档 案 的 语义 是 指 所 有 档案 本 刁 的 数据 和 描 
述 档案 的 数据 的 含义 ,包括 档案 内 容 数 据 .背景 数据 和 
结构 数据 的 含义 ,与 传统 档案 文本 内 容 的 含义 或 元 数 
据 的 含义 不 同 ,档案 的 语义 使 用 形式 化 语言 表达 ,含义 
明确 且 机 器 可 理解 。 
3.1.1 档案 内 容 的 语义 

档案 的 内 容 是 指 档案 中 所 包含 的 表达 作者 意图 的 
信息 。 档 案 内 容 一 般 采 用 自然 语言 表达 ,其 含义 取 
决 于 文件 形成 时 作者 使 用 的 词语 和 句法 结构 ,依赖 一 


案 馆 中 ,以 解决 数字 档案 资源 的 知识 关联 、 语 义 互 
操作 \ 跨 媒体 语义 检索 和 语义 聚合 ”等 问题 。 


定 的 语言 体系 和 上 下 文 关 系 ,可 能 因 语 种 和 语 境 的 变 
化 而 变化 。 因 此 ,识别 档案 内 容 的 语义 ,就 是 要 识别 文 


a 
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本 中 的 词语 及 其 指 代 的 概念 之 间 的 对 应 关系 。 为 了 获 
取 内 容 语义 ,一 般 会 采用 语义 标注 ( 标 引 ) 的 方法 , 借 
助 本 体 等 工具 识别 文本 中 的 概念 ,使 以 文件 为 单元 的 
信息 组 织 发 展 为 以 概念 为 单元 的 语义 组 织 ”。 
档案 内 容 的 语义 集中 体现 在 时 间 、 人 物 (机 构 )、 
地 点 .事件 (主题 ) 和 实物 五 大 方面 ,可 以 通过 标注 文 
本 中 这 五 大 要 素 加 消 歧 的 方法 ,来 获取 档案 内 容 中 最 
重要 的 语义 。 如 在 台湾 历史 数位 图 书馆 中 ,有 标题 为 
《 立 杜 卖 尽 根 琪 园 字 》 的 一 份 档案 ”其 文本 中 的 地 名 
如 “ 拒 东 上 堡 七 份 庄 ”、 人 名 如 “ 匡 阿 旺 ” 等 语义 被 标注 
出 来 ,在 经 过 形式 化 编码 表达 后 ,这 些 内 容 语义 就 可 以 
与 其 他 档案 中 的 相关 语义 进行 关联 组 织 ,抽取 出 这 些 
档案 中 关于 同一 时 间 、 人 物 、 地 点 和 事件 的 知识 。 当 档 


乏 赁 证 性 的 。 任 何 档案 都 有 其 机 构 背 景 .业务 背 景 , 程 
序 背景 和 文件 背景 ” 。 档 案 背 景 的 语义 就 是 指 描述 
档案 机 构 背 景 `, 业 务 背 景 ,程序 背景 和 文件 背景 的 数据 
的 含义 。 其 中 ,机 构 背 景 是 指 档案 生成 者 所 属 的 机 构 
体系 ;业务 背景 是 指 生成 档案 的 业务 职能 、 活 动 和 事 
务 ;程序 背景 是 指 文件 生成 、 转 递 .归档 与 管理 的 程序 ; 
文件 背景 是 文件 所 属 的 档案 全 宗 或 档案 汇集 内 与 其 他 
文件 之 间 的 关系 。 

背景 驱动 是 档案 资源 区 别 其 他 信息 资源 的 一 个 重 
要 特征 。 档 案 资源 不 是 “静态 "资源 ,在 其 生命 周期 演 
变 过 程 中 ,背景 信息 深刻 影响 着 档案 资源 的 内 容 与 结 
构 。 档 案 背景 语义 的 识别 和 获取 ,对 于 建立 起 档案 文 
本 与 档案 来 源 机 构 .业务 ,程序 和 文件 汇集 之 间 的 相关 


案 资 源 文本 内 容 语义 的 标注 颗粒 越 细 时 ,内 容 中 语义 
关系 的 揭示 程度 就 会 越 高 ,档案 资源 文本 内 容 中 所 草 
售 的 知识 被 发 现 .聚合 .挖掘 的 深度 与 效果 就 会 越 


:二 档案 背景 的 语义 
< 十 档案 的 背景 是 指 档案 所 处 的 环境 。 任 何 只 
[信息 而 下 具备 背景 言 息 的 档案 都 是 不 完整 的 、 缺 
AN 


关系 ,拓展 档案 资源 文件 层 、 汇 集 层 甚至 全 宗 层 的 外 部 
关联 ,具有 极为 重要 的 作用 。 例 如 图 1 所 示 , “台湾 历 
史 数 位 图 书馆 (THDL) ”根据 档案 的 文件 背景 语义 , 识 
别 历 史 公 文 在 “上传 下 达 ”" 中 的 环节 与 作用 ,提供 每 份 
历史 档案 与 其 他 档案 的 相关 关系 “另类 视窗 ”” ,为 档 
案 检 索 用 户 提 供 更 多 历史 档案 的 浏览 推荐 。 


【 壹 摇 】 福 之 至 淡 巡 括 到 钻 传 
为 符 参 好 情 歼 关于 混 其 由 蚤 视 民 | 【去 扫 】 和 至 潜 巡 找到 阁 人 
© 贴 腔 要 公 之 知县 分 别 请 浊 签 闪 共 上-----] Ee 光绪 14 年 9 月 2 日 
CN 仰 祈 至 鉴 事 | 光绪 14 年 9 月 2 日 
光绪 14 年 9 月 2 日 
SC 被 引用 光绪 14 年 9 月 25 日 
SC \ 
i 2 
© rE [上座 ] 和 
年 九 ) 刻 内 阅 :到 铬 仿 宏 ， 符 会 凤 息 到 
饰 ， 芷 膜 视 民 售 ， 床 字 公 事 - 
光绪 14 年 9 月 26 日 光绪 14 年 9 月 26 晶 
图 1 THDL 通过 识别 文件 背景 语义 提供 “另类 视窗 检视 ”服务 
3.1.3 档案 结构 的 语义 则 模板 化 自动 生成 ,最 终 呈 现 出 认可 阅读 且 具 有 固化 


档案 的 结构 是 指 档案 内 容 信息 的 组 织 方式 与 表达 
方式 ,其 中 组 织 方式 包括 正文 和 附件 ,表达 方式 包括 格 
式 载体 .版 本 等 ”。 档 案 结 构 的 语义 就 是 描述 档案 
结构 的 数据 的 含义 。 在 传统 纸 质 档案 资源 中 ,档案 内 
容 的 语义 与 档案 结构 的 语义 是 不 可 分 离 的 ,但 随 着 档 
案 数字 化 以 及 电子 文件 的 发 展 , 档 案 的 内 容 与 结构 逐 
渐 分 离 , 且 相互 之 间 的 影响 度 逐 渐 缩 小 。 例 如 在 很 多 
信息 管理 系统 中 , 某 类 文件 内 容 数 据 可 填写 .结构 数据 


结构 的 文件 ,也 就 是 说 文件 的 页 面 布局 等 结构 语义 已 
经 由 机 器 自动 设 定 且 机 器 可 理解 。 在 这 种 背景 下 , 档 
案 结构 的 语义 更 容易 被 独立 识别 并 获取 ,一 般 体 现在 
描述 档案 资源 长 期 保存 信息 的 数据 的 含义 ,包括 档案 
的 格式 \ 版 本 、 载 体 数 据 等 。 在 数据 化 状态 中 ,结构 语 
义 对 于 定义 文件 所 处 生命 周期 阶段 必 不 可 少 , 不 同 版 
本 和 格式 的 文件 可 能 处 于 不 同 的 机 构 .业务 .程序 和 文 
件 背景 中 ,也 可 能 包含 不 同 的 文本 内 容 信息 。 因 此 , 档 
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通过 档案 内 容 .背景 和 结构 语义 之 间 的 关联 ,档案 
之 间 新 的 关联 也 将 建立 起 来 。 如 图 2 所 示 : 


案 结构 的 语义 往往 是 建立 起 档案 资源 内 容 语义 与 背景 
语义 之 间 关 系 的 重要 桥梁 。 


”档案 背景 的 语义 
| 


* 机 构 背 景 的 语义 
“ 业务 背景 的 语义 
“ 程序 背景 的 语义 
"文件 背景 的 语义 


村 的 


* 格式 的 语义 
* 载体 的 语义 
* 版 本 的 语义 
* 附件 的 语义 


vv 一 


* 人 物 的 语义 
“时 间 的 语义 
* 地 点 的 语义 
* 事件 的 语义 


| 实物 的 语义 
档案 内 容 的 语义 ; 


| 
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3 吕 - 档案 语义 关联 的 内 洒 

CO 〇 和 案 的 语义 蕴藏 在 档案 的 内 容 .背景 与 结构 数据 
中 5 而 这 些 数据 不 仅 存在 于 文件 中 ,也 存在 于 档案 汇集 
的 答 个 层级 中 ,上 且 不 同 层级 的 内 容 .背景 与 结构 数据 在 


档案 背景 的 语义 


档案 结构 的 语义 
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档案 内 容 的 语义 


图 2 档案 语义 的 内 涵 及 其 关系 


含义 和 性 质 上 可 能 具有 继承 或 其 他 关系 ,这 些 不 同 层 
级 的 内 容 . 背 景 、 结 构 语义 之 间 的 关联 ,就 能 够 建立 起 
不 同 层级 档案 之 间 的 关联 ,从 而 形成 多 层级 的 数据 和 
语义 网 络 ,如 图 3 所 示 : 


© 

9 多 级 语义 关联 
S 
E 人 

x 着 
CS 部 分 | 继承 
oe 
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文件 级 语义 


多 级 数据 网 络 


图 3 档案 资源 的 多 级 语义 关联 


3.2.1 多 级 著录 引发 的 多 级 关联 

档案 的 多 级 著录 思想 来 源 于 Oliver W.，Holmes 的 
五 级 档案 整理 理论 , 即 分 别 在 档案 仓储 (depository) 、 文 
件 汇集 (recordsgroup ) .系列 (series)、 案卷 (file unit ) 、 
文件 (document ) 五 级 开展 档案 资源 的 著录 和 整理 工 
作 "”“ 。1992 年 第 十 二 届 国 际 档案 大 会 确立 了 现代 档 
案 著录 的 “马德里 原则 ”, 即 来 源 原 则 、 革 重 全 宗 原 则 
和 反映 管理 级 次 原则 ,其 中 反映 管理 级 次 原则 就 要 求 
档案 著录 必须 充分 反映 “全 宗 - 分 全 宗 - 类别 - 案卷 


-文件 "这 样 的 等 级 层次 ”。ISAD(G) 明 确 提 出 了 要 
开展 全 宗 ( 子 全 宗 ) - 系列 ( 子 系列 ) -文件 -实体 四 
个 层面 的 多 级 著录 , 从 而 为 纵向 的 全 宗 内 编目 和 检 
索 、 横 向 的 层级 间 相 关 性 检索 提供 支持 。 多 级 著录 能 
够 提供 多 层 .多维 、 完 整 的 档案 描述 ,为 档案 不 同 层级 
之 间 的 关联 建立 奠定 了 基础 ”。 多 级 著录 也 为 档案 
检索 提供 了 多 级 入 口 ,任何 一 个 层级 的 著录 数据 都 可 
以 向 上 级 追溯 或 向 下 级 延伸 ,以 获取 更 高 或 更 低级 别 
的 档案 著录 数据 ,同时 也 可 以 向 左右 扩展 获取 相关 档 
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案 的 关联 检索 。 

我 国 (档案 著录 规则 》(DA/T18 - 1999 ) 仅 规定 了 
文件 级 ,案卷 级 的 档案 内 容 .背景 与 结构 著录 项 目 与 格 
式 , 对 全 宗 和 类 别 级 的 著录 则 几乎 没有 标准 的 数据 定 
义 ,项 目 参考 和 格式 限定 。 在 这 样 层级 单薄 的 著录 体 
系 下 ,档案 的 语义 大 多 来 源 于 文件 层级 的 内 容 .背景 与 
结构 数据 ,而 无 法 从 案卷 级 .类别 级 ,全 宗 级 获取 更 多 
的 语义 ,也 就 无 法 在 四 个 层级 以 及 层级 之 间 都 建立 起 
丰富 的 语义 关联 。 

因此 ,要 获得 更 完整 的 档案 资源 语义 关联 ,就 要 
完成 多 个 层级 的 档案 资源 语义 著录 工作 。 这 包括 获 
取 多 级 著录 数据 和 分 析 多 级 著录 数据 的 语义 两 个 层 
面 : 

一 (1) 对 全 宗 -类别 -案卷 -文件 四 个 层级 的 档案 
资源 开展 多 级 著录 , 设 定 每 个 层级 的 著录 项 目 与 格式 ， 
日 
系 《 部 分 继承 关系 ,避免 多 层级 著录 的 重复 ,同时 注重 


丰 同 层级 所 合 内 容 .所属 背景 .所 具 结 构 的 特殊 性 及 其 


全 汪 闭 录 。 
2) 对 全 宗 -类 别 - 案卷 - 文件 四 个 层级 的 多 级 
车 叫 数 据 进行 语义 描述 ,分 析 不 同 层级 著录 数据 在 内 
罕 背 景 结 构 上 的 语义 聚 类 与 关联 关系 。 

3.S\2 多 级 关联 形成 的 多 级 网 络 
.一 经 过 多 级 著录 后 ,全 宗 - 类 别 


案卷 - 文件 四 个 
去 级 的 档案 语义 就 能 够 被 进一步 分 析 、` 抽 取 和 关联 起 
来 5 浴 而 建立 起 纵横 两 个 方向 的 语义 关联 网 络 : 


级 的 档案 语义 网 络 也 可 以 建立 起 来 ,从 而 能 够 提供 更 
多 的 档案 检索 点 和 服务 人 口 。 
3.3 ”档案 资源 语义 组 织 的 内 酒 

档案 的 语义 组 织 是 指 将 档案 内 容 .背景 与 结构 数 
据 含义 明确 化 、 编 码 形 式 化 .关联 链接 化 的 过 程 ,包括 
识别 .理解 分析 和 表达 档案 的 语义 ,并 建立 起 多 级 档 
案 语 义 之 间 的 关联 这 两 大 部 分 。 任 何 语义 也 不 可 能 脱 
离 其 他 语义 而 独立 发 挥 价值 ,根据 语义 间 的 关系 对 其 
进行 分 类 、 聚 类 、 关 联 等 ,就 可 以 形成 描述 客观 世界 中 
的 概念 或 知识 。 因 此 ,语义 组 织 的 本 质 就 是 分 析 语 义 
之 间 的 关系 、 建 立 语义 之 间 的 关联 。 根 据 档 案 语 义 来 
源 于 档案 汇集 内 或 档案 汇集 外 ,档案 语义 组 织 可 以 分 
为 向 内 语义 组 织 和 向 外 语义 组 织 。 
3.3.1 向 内 语义 组 织 

向 内 语义 组 织 的 “内 "是 指 一 个 特定 的 档案 汇集 
之 内 。 被 组 织 的 语义 来 自 同一 个 数据 源 中 的 数据 ,不 
涉及 跨 档 案 汇 集 或 跨 数 据 源 的 关联 或 集成 问题 。 向 内 
组 织 也 是 建立 档案 纵向 语义 关系 网 络 的 过 程 。 对 于 大 
多 经 数字 化 的 历史 档案 来 说 ,为 历史 研究 或 公共 记忆 
构建 服务 是 主要 目标 ,其 档案 向 内 语义 组 织 主要 是 指 
某 一 历史 研究 主题 或 公共 记忆 方向 的 档案 汇集 内 档案 
文本 内 容 的 语义 组 织 , 即 根据 文本 内 容 中 人 物 ( 机 
构 ) 时间 ,地 点 .事件 或 者 实物 语义 之 间 的 关联 ,建立 
起 某 一 主题 下 档案 汇集 内 不 同文 件 之 间 的 关联 ,形成 
关于 这 一 主题 的 完整 .详细 的 内 容 网 络 。 对 于 大 部 分 
原生 电子 档案 来 说 ,提供 业务 凭证 ` 文 持 业务 决策 为 主 


“二 (1) 纵 向 网 络 是 指 档案 的 全 宗 - 类别 -案卷 - 文 
件 辐 个 层级 之 间 语 义 关联 的 建立 ,这 种 关联 是 基于 上 
下 层级 档案 内 容 .背景 .结构 语义 的 部 分 继承 关系 所 建 
立 的 。 一 般 来 讲 ,纵向 网 络 是 档案 语义 网 络 的 主线 ,是 
对 档案 编目 传统 的 继承 ,但 改变 了 严谨 的 根系 树 状 结 
构 ,而 能 够 提供 上 下 级 、 跳 级. 单 级 等 多 种 档案 描述 与 
检索 的 扩展 与 缩减 。 

(2) 横 向 网 络 是 指 档案 的 全 宗 - 全 宗 、 类 别 - 类 
别 、 案 卷 -案卷 ,文件 - 文件 四 个 层级 的 同 级 语义 关联 
的 建立 ,这 种 关联 是 基于 同 级 档案 在 内 容 .背景 与 结构 
语义 上 的 相关 关系 。 一 般 来 讲 ,这 种 相关 关系 需要 外 
部 开放 资源 作为 关联 桥梁 ,例如 两 个 不 同 档案 汇集 通 
过 “机 构 名 录 " 这 一 外 部 资源 ,建立 起 两 个 档案 汇集 所 
属 机 构 在 职能 上 的 上 下 游 关 系 ,因而 进一步 在 机 构 全 
宗 的 背景 语义 上 建立 关联 ,从 而 实现 从 一 个 机 构 的 全 
宗 到 另 一 个 机 构 的 全 宗 的 语义 链接 。 

基于 纵横 两 向 基本 语义 关联 网 络 ,更 多 的 交叉 层 


要 服务 目标 ,其 档案 向 内 语义 组 织 主要 是 指 某 一 机 构 
档案 汇集 (或 机 构 全 宗 ) 内 "全 宗 -类 -文件 -组 件 ” 
的 多 层次 的 内 容 语义 .背景 语义 和 结构 语义 的 关联 组 
织 。 如 图 4 所 示 ,每 一 层 的 语义 组 织 都 会 涉及 到 内 容 
语义 .背景 语义 和 结构 语义 之 间 的 关联 ,最 终 构建 起 四 
层 网 状 结构 。 
3.3.2 向 外 语义 组 织 

向 外 语义 组 织 的 “外 "是 指 一 个 特定 的 档案 汇集 
之 外 , 即 超越 档案 汇集 的 限制 向 更 多 外 部 数据 源 寻 找 
并 关联 相关 语义 ,包括 不 同 档案 汇集 之 间 的 语义 关联 、 
档案 汇集 与 其 他 类 型 数据 汇集 之 间 的 语义 关联 两 种 基 
本 类 型 。 向 外 语义 组 织 将 档案 汇集 视 为 更 多 领域 档案 
汇集 中 的 一 个 组 织 部 分 ,强调 基于 领域 知识 对 不 同 档 
案 汇 集 甚 至 不 同 数据 汇集 进行 集成 和 关联 组 织 , 从 而 
形成 对 更 广泛 的 领域 知识 的 描述 、 开 发 和 利用 。 档 案 
语义 向 外 组 织 也 是 建立 档案 横向 语义 关联 网 络 的 过 
程 。 档 案 语 义 向 外 组 织 的 关键 是 通过 机 器 可 理解 的 链 
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结构 语义 ， 


内 容 和 结构 语义 | I 
TT 图 4 面向 业务 的 档案 向 内 语义 组 织 


援 ` 建 立 起 不 同 数据 源 数据 间 的 关联 ,实质 是 通过 语义 
集成 实现 语义 关联 。 对 于 大 部 分 业务 驱动 的 电子 档案 

,向 外 语义 组 织 意味 着 超越 机 构 职 能 和 档案 来 源 
限 届 的 ,相关 机 构 、 职 能 ,档案 汇集 之 间 的 社会 关系 网 
络 的 综合 建立 。 正 如 图 5 所 示 , 原 本 来 源 于 不 同 机 构 
的 各 案 汇集 相互 独立 ,因为 机 构 .职能 和 业务 之 间 的 上 
人 R 注 关系 ,并 在 产生 关系 的 同时 产生 相应 的 业务 凭证 ， 
乔 鹿 终 形成 因 业 务 领 域 相 关 而 聚集 的 跨越 机 构 .职能 
的 尝 列 档案 ,使 得 原本 分 散 独立 的 档案 汇集 之 间 具 有 


chinaX 


档案 汇集 机 构 职能 


了 关系 。 这 就 要 求 在 组 织 档案 时 ,不 能 仅 向 内 组 织 机 
构 职 能 内 部 的 业务 活动 .事务 及 其 生成 的 各 类 档案 ,还 
要 向 外 组 织 相关 的 机 构 名 录 、 职 能 列表 .业务 活动 记 
录 ,事务 日 志 、 行 为 数据 等 ,通过 与 公开 的 外 部 资源 的 
关联 ,建立 起 不 同 档案 汇集 在 背景 语义 尤其 是 机 构 语 
义 、 业 务 语义 方面 的 关联 性 ,建立 起 机 构 档 案 汇集 内 的 
档案 与 汇集 外 的 档案 的 关系 ,形成 对 整个 业务 领域 内 
职能 活动 的 完整 梳理 ,最终 为 整个 业务 领域 而 非 仅 为 
某 个 职能 或 活动 提供 档案 资源 服务 。 


业务 活动 业务 〈 领 域 ) 档案 


5 业务 驱动 的 档案 资源 向 外 语义 组 织 


4 档案 语义 组 织 的 原理 
档案 语义 组 织 是 借鉴 语义 网 中 信息 资源 组 织 的 基 


本 原理 ,对 档案 的 内 容 语义 .背景 语义 、 结 构 语义 进行 
向 内 组 织 和 向 外 组 织 的 过 程 ,是 推进 档案 数据 化 的 核 
心 环节 。 档 案 语 义 组 织 的 原理 围绕 三 大 核心 问题 的 解 


图 二 情报 三 作 


第 65 卷 第 9 期 2021 年 5 月 


个 na A 本 甘 B 工 i| 
ChninaxIV 合 人 FE 期 十 | 


决 :档案 语义 从 何 处 来 ? 档案 语义 如 何 关 联 ? 档案 语 
义 和 语 义 关联 如 何 为 机 器 所 理解 ? 
4.1 结构 化 的 语义 来 源 


姓名 、 地名、 时 间 官衔 、 机 构 名 称 的 标注 等 ,同时 还 支 
持 所 有 语言 的 自 定 义 关 键 字 列表 或 者 标签 的 手工 与 批 
量 标注 。MARKUS 还 与 一 系列 概念 模型 或 数据 库 建 立 


语义 是 数据 的 含义 ,语义 来 源 于 数据 ,而 机 器 可 理 
解 和 可 操作 的 语义 主要 来 源 于 那些 被 数据 模型 严格 定 
义 的 结构 化 数据 。 对 于 以 非 结构 化 数据 为 主 的 档 
案 来 讲 , 确 保 完整 的 语义 来 源 ,关键 在 于 非 结构 化 数据 
的 结构 化 ,其 中 对 档案 文本 进行 标注 以 及 对 档案 内 容 、 
背景 与 结构 进行 著录 是 两 种 最 主要 的 方法 ,所 得 的 档 
案 标注 数据 和 档案 著录 数据 是 档案 语义 最 重要 的 两 类 
来 源 。 
4.1.1 ”档案 内 容 的 转录 与 语义 标注 
对 于 很 多 传统 纸 质 档案 数字 化 转化 而 来 的 历史 资 
源 来 讲 , 光 学 符号 识别 ( Optical Character Recognition， 
OCRD 是 目前 最 为 常用 的 文本 转录 方式 。 但 OCR 识别 
与 转录 之 后 的 数据 仅 能 支持 机 器 对 字符 的 识别 与 匹 
和 六 数 据 含 义 上 仍然 做 不 到 机 器 可 理解 , 即 这 些 转 录 
后 的 数据 仍然 是 非 语义 的 。 此 时 就 需要 对 转录 后 的 数 
握 进 行进 一 步 的 标注 ,从 语义 层面 对 其 进行 分 析 \ 序 
傣 事 类 和 关联 。 与 一 般 的 档案 资源 著录 (元 数据 ) 主 
要 为 生 在 文件 层 (documentlevel) 不 同 ,档案 资源 的 语 
区 乏 注 强调 下 沉 到 实体 层 (item-level) ,也 就 是 要 对 档 
案 资 源 内 容 中 的 “事物 "而 非 档案 资源 本 身 进行 详细 
的 猫 述 。 现 有 档案 内 容 的 标注 常常 采用 手工 建立 标签 
(Tagging) 的 方式 。 例 如 ,美国 国家 档案 与 文件 团 ( Na- 
rinal Archives and Records Administration, NARA) 从 
20 防 年 开始 启动 “公民 档案 员 计划 ”( The Citizen Ar 
chivist Initiative)" ,鼓励 公民 通过 添加 标签 .注释 和 
翻译 转录 的 方式 ,帮助 实现 NARA 馆藏 资源 的 结构 
化 及 其 著录 ,NARA 为 此 还 发 布 专门 的 标签 政策 |。 
自 2012 年 以 来 ,通过 这 种 众 包 方式 ,公民 贡献 了 数 百 
万 个 标签 .元 数据 ,转录 文本 、 视 频 字幕 和 数字 图 像 
等 ,为 馆藏 档案 资源 的 内 容 理解 与 描述 做 出 了 重要 
贡献 9] 。 

除了 众 包 方式 的 手工 标注 标签 外 ,还 有 一 些 自动 
化 的 语义 标注 工具 可 供 档案 工作 者 使 用 ,开展 条 目 级 
的 标注 。 例 如 由 欧洲 研究 理事 会 资助 的 “交流 与 帝国 : 
比较 视角 下 的 中 华帝 国 ”( Communication and Empire: 
Chinese Empires in Comparative Perspective) 项 目 所 开发 
的 MARKUS 自动 化 语义 标注 工具 " ,目前 支持 中 文 和 
韩文 两 种 语言 文本 中 的 语义 实体 自动 标注 ,包括 人 物 


了 自动 关联 ,如 特定 语言 词典 或 特点 领域 的 词汇 表 以 
及 中 国 传记 数据 库 (CBDB)、 中 国 地 理 信息 系统 
(CHGIS) 等 数据 库 , 用 于 语言 .领域 知识 、 人 名 、 地 名 等 
标注 概念 的 参考 。 

无 论 是 人 工 标 注 还 是 自动 化 标注 ,标注 产 出 的 众 
多 数据 都 会 成 为 档案 资源 描述 数据 的 重要 组 成 部 分 。 
这 些 标注 数据 有 些 可 能 与 档案 资源 的 著录 项 目 重复 或 
同 义 , 如 主题 词 与 主题 标签 ;有 些 可 能 与 著录 项 目 相 
关 , 如 历史 机 构 名 称 与 档案 生成 机 构 等 ;有 些 可 能 是 著 
录 项 目 没有 而 对 档案 资源 内 容 理解 有 重要 补充 ,如 历 
史 人 物 名 称 、 地 名 等 。 这 些 共同 构成 了 描述 档案 资源 
的 数据 库 ,在 经 过 进一步 的 语义 关联 后 ,会 形成 档案 语 
义 单元 网 络 。 
4.1.2 档案 元 数据 的 著录 与 语义 增强 

OCR 识别 与 语义 标注 一 般 用 于 档案 内 容 语义 的 
获取 ,对 于 档案 背景 语义 与 结构 语义 的 获取 则 主要 依 
靠 档 案 元 数据 的 获取 与 语义 描述 。 元 数据 是 最 常用 的 
档案 描述 和 管理 工具 ,也 是 目前 信息 管理 系统 中 的 档 
案 结构 化 数据 的 最 重要 来 源 。 元 数据 (metadata) 是 指 
数据 的 数据 (data about data) ,最 基本 的 功能 就 是 定义 
和 描述 数据 ””"，。 元 数据 捕获 数据 的 含义 ( mean- 
ing) 部 分 ,就 是 本 文 所 述 的 语义 网 中 的 语义 (semantic ) 
一 词 。 在 纸 质 档案 时 期 ,元 数据 分 散在 案卷 封皮 , 卷 内 
目录 等 多 个 地 方 ,需要 重复 记录 。 在 电子 文件 或 者 信 
息 管理 系统 时 代 ,档案 元 数据 具有 了 结构 化 、 集 中 化 、 
标准 化 等 基本 属性 ,一 般 以 XML 格式 进行 表达 。 例 
如 , 现 有 档案 著录 一 般 遵 循 的 《编码 档案 著录 规则 》 
(Encoded Archival Description，EAD ) 就 是 一 种 基于 
XML 模型 的 档案 著录 规则 。 但 XML 格式 是 一 种 隐 式 
(Implicit) 语义 表达 方式 ,也 可 视 为 不 具有 语义 。 因 
此 ,还 要 进一步 对 档案 元 数据 进行 语义 增强 ,使 元 数据 
中 蕴含 的 语义 显 性 化 。 

例如 ,由 欧盟 发 起 的 大 型 欧洲 数字 人 文 遗产 资 
项 目 “Europeana” 存 储 了 来 自 3 700 多 家 欧洲 图 书馆 、 
档案 馆 ,博物馆 和 其 他 收藏 机 构 超 5 800 万 件 的 数字 
文化 资源 ,这 些 资 源 都 经 过 了 基础 元 数据 的 著录 ,为 了 
优化 对 大 量 元 数据 的 检索 和 利用 ,Europeana 在 语义 层 
次 上 向 元 数据 中 添加 新 的 信息 ,这 一 过 程 被 称 为 “语义 
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增强 ”( Semantic Enrichment) Wy Europeana 的 元 数据 语 
义 增强 过 程 主要 分 为 三 个 阶段 :分 析 现 有 元 数据 
集 ,选择 参考 数据 集 ,制定 元 数据 与 参考 数据 集 之 间 
的 匹配 和 关联 规则 ;@ 将 元 数据 项 目 及 其 取 值 与 参 
考 数 据 集中 的 字段 和 值 进 行 匹配 ,并 将 参考 数据 集 
中 的 数据 间 关系 自动 添加 到 元 数据 集中 ;@ 将 现 有 
元 数据 集中 没有 而 参考 数据 集中 有 的 数据 项 及 其 取 
值 ,添加 到 元 数据 集中 ,包括 语义 相同 或 相似 的 概 
念 . 超 类 或 子 类 概念 等 。 经 过 这 三 个 阶段 的 语义 增 
强 ,档案 元 数据 的 语义 得 以 显 性 化 ,能 够 更 明确 地 建 
立 起 语义 关联 。 

4.2 ”明确 化 的 语义 关联 

捕获 档案 标注 和 著录 数据 ,从 结构 化 数据 中 获取 
语义 ,是 档案 语义 组 织 的 第 一 步 。 但 任何 语义 都 不 可 
能 狐 立 存在 ,档案 语义 的 内 涵 与 边界 需要 更 多 的 语义 
次 卉 来 界定 ,是 语义 之 间 的 关系 也 决定 了 数据 之 间 的 
闪婚 。 语 义 组 织 的 核心 就 是 建立 语义 关联 ,从 而 定义 
数据 的 关联 ,形成 档案 数据 网 络 。 语 义 关系 本 质 上 是 
概念 之 间 的 关系 ,概念 之 间 的 关系 是 由 概念 的 外 延 决 
2 风 , 反 之 这 种 关系 又 进一步 影响 了 概念 内 涵 的 界定 。 
建立 档案 语义 关系 ,就 是 找寻 档案 内 容 、 结 构 和 


Sampo 对 各 类 数字 资源 的 标注 数据 和 元 数据 之 间 建 立 
关联 提供 了 基础 框架 和 依据 。 
4.3 形式 化 的 语义 表达 

语义 的 表达 方式 按照 机 器 能 否 直接 理解 分 为 隐 式 
表达 , 非 形式 化 表达 和 形式 化 表达 三 种 ” 。 一 般 档 案 
文本 内 容 都 采用 自然 语言 进行 表达 ,是 一 种 非 形 式 化 
的 语义 表达 方式 ,人 可 以 阅读 并 理解 ,但 机 器 无 法 理解 
其 中 的 语义 和 语义 关系 , 即 不 具有 语义 ;一 般 档案 元 数 
据 都 采用 XML 语义 进行 表达 , 尚 处 于 语法 层次 ,描述 
的 是 数据 的 结构 而 非 数 据 的 含义 ,因此 是 一 种 隐 式 语 
义 表达 方法 ,也 可 以 说 不 具有 语义 。 因 此 ,要 想 使 档 
案 语 义 为 机 器 可 理解 ,就 要 用 形式 化 的 语言 重新 表 
达 档 案 元 数据 。 形 式 化 表达 的 语义 是 一 种 模型 论语 
义 (Model Theoretic Semantics) , 即 用 一 定 结构 和 模型 
的 “声明 ”来 定义 语义 。RDF 的 三 元 组 (一 个 三 元 组 
就 是 一 个 声明 ) 就 是 一 种 模型 论语 义 表 达 即 形式 化 
表达 方法 。 档 案 语 义 从 隐 式 语义 表达 方式 向 形式 化 
语义 表达 方式 的 转化 ,就 是 档案 资源 标注 和 著录 数 
据 及 其 语义 描述 数据 从 XML 文档 向 RDF 文档 的 转 
化 。RDF 可 以 基于 XML 语法 ,这 就 为 现 有 很 多 以 
XML 格式 存储 的 档案 元 数据 转化 为 RDF 格式 提供 了 


疹 汪 数据 中 所 含 概念 之 间 的 关系 。 本 体 是 最 适合 完整 
表 偿 档案 资源 中 概念 体系 、 严 格 定义 并 形式 化 表达 概 
各 后 慨 念 间 关 系 的 工具 。 本 体 (ontology ) ,是 语义 网 上 
用 于 描述 资源 元 数据 的 数据 字典 (metadata vocabula- 
riesy。 某 个 领域 的 本 体 就 是 关于 该 领域 的 一 个 公认 的 
概 维和 集 ,其 中 的 概念 含有 公认 的 语义 ,这 些 语义 通过 概 
念 之 间 的 各 种 关联 来 体现 。 

以 芬兰 国家 级 语义 集体 记忆 平台 CultureSampo 为 
例 ,该 平台 希望 通过 语义 关联 实现 对 众多 异 质 档案 的 
整合 ,从 而 基于 数字 档案 资源 构建 起 一 个 完整 的 芬兰 
国家 记忆 。 为 此 ,CultureSampo 首先 建立 起 一 个 国家 级 
的 数字 资源 本 体 FinnONTO ,将 本 国 普遍 使 用 的 词 表 半 
自动 化 转化 为 轻 量 级 本 体 ,并 通过 不 同 领域 专家 之 间 
的 协作 ,在 这 些 跨 领 域 本 体 之 间 建 立 映射 ,最 终 形成 一 
个 全 国 性 的 大 型 本 体 一 一 KOKO。KOK0O 包含 一 个 顶 
层 本 体 YSO( 定 义 了 20 600 个 概念 ) .一 个 博物 馆 领 域 
本 体 MAO( 定 义 了 6 800 个 概念 ) .一 个 农业 林业 领域 
本 体 AFO( 定 义 了 5 500 个 概念 ) .一 个 应 用 艺术 领域 
本 体 TAO( 定 义 了 2 600 个 概念 ) 和 一 个 摄影 本 体 论 
VALO( 定 义 了 1 900 个 概念 )"“。 这 些 本 体 为 Culture- 


可 能 。 

英国 Archives Hub 的 关联 数据 项 目 就 是 通过 档案 
元 数据 的 RDF 转化 ,实现 了 档案 语义 的 形式 化 表达 。 
Archives Hub 是 为 社会 各 层级 用 户 提供 对 英国 境内 
363 家 机 构 的 档案 著录 数据 的 交叉 检索 的 非 硬 利 机 
构 , 其 本 身 并 不 保管 任何 档案 资源 ,但 存储 了 大 约 174 
万 余 个 馆藏 档案 汇集 的 元 数据 ,所 有 的 这 些 元 数据 都 
面向 社会 用 户 提供 检索 “” 。 为 了 使 机 器 自动 理解 档 
案 数 据 的 语义 并 智能 化 服务 用 户 的 检索 需求 ,Archives 
Hub 专门 启动 了 Locah (Linked Open Copac Archives 
Hub ) 项 目 ,探索 出 档案 语义 形式 化 表达 的 基本 步骤 : 
中 构建 档案 关联 数据 模型 (本 体 ) ; 思 检 索 和 复 用 已 
有 的 词 表 ( 或 本 体 ) ,填充 档案 关联 数据 模型 中 缺少 
的 概念 ;3 为 档案 元 数据 添加 URI; 由 将 档案 元 数据 
从 EAD 数据 转化 成 RDF XSLT 样式 表 ;@@ 发 布 档案 
关联 元 数据 ; 创建 关联 数据 视图 ; 使 用 SPARQL 语言 
进行 数据 的 语义 关联 等 ”。 其 中 ,将 档案 元 数据 从 
EAD 格式 转化 成 RDF XSLT 样式 表 是 显 性 描述 元 数 
据 语义 的 关键 一 步 。RDF XSLT 样式 表 能 够 对 中 中 
构建 的 数据 模型 进行 封装 ,从 而 提供 一 种 简单 的 、 标 
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准 化 的 \ 可 重用 的 、 档 案 元 数据 形式 化 转换 为 关联 数 
据 的 方案 ”1。 

综 上 所 述 ,通过 语义 标注 和 元 数据 语义 增强 ,档案 
的 内 容 、 背 景 与 结构 得 以 转化 为 隐藏 语义 的 结构 化 数 
据 ,通过 明确 化 的 概念 模型 建立 起 这 些 数据 之 间 的 语 
义 关系 ,再 通过 机 器 可 理解 的 形式 化 语言 来 表达 这 些 
语义 和 语义 关系 ,从 而 构建 起 一 个 富 含 结构 .语义 和 关 
联 的 机 器 可 理解 的 数据 网 络 ,这 是 档案 语义 组 织 的 基 
本 原理 。 而 要 从 基本 原理 到 不 同类 型 档案 语义 组 织 的 
实现 ,还 要 借助 更 多 语义 技术 与 工具 ,基于 档案 资源 实 
际 状态 和 档案 业务 场景 继续 深入 探索 。 

5 档案 语义 组 织 的 基本 原则 

三 档案 语义 组 织 在 不 同 的 档案 资源 状态 和 档案 业务 
场景 支持 下 ,可 能 会 有 不 同 的 实践 路 径 ,但 都 应 遵循 档 
案 调 义 组 织 的 基本 原则 ,这 些 原则 也 体现 了 档案 语义 
贿 维 与 其 他 信息 资源 语义 组 织 的 区 别 于 联系 。 一 广 
而 ,资源 特性 的 不 同 导致 的 语义 来 源 数据 的 不 同 ,因此 
档案 的 语义 需要 完整 来 源 于 各 层级 的 内 容 、. 背 景 与 结 
检 宙 一 方面 ,档案 语义 组 织 在 方法 上 继承 了 信息 资源 
请 久 组 织 的 共性 方法 ,但 共性 方法 应 用 在 特性 资源 上 ， 
就 党 要 同时 尊重 档案 资源 特性 与 语义 组 织 的 基本 规 


外 语义 完整 原则 
己 档 案 语 义 组 织 的 第 一 步 是 获取 语义 ,在 语义 获取 
过 程 中 应 遵循 语义 完整 原则 ,包括 : 
〇 (1 ) 档 案 的 全 宗 - 类 别 - 案卷 - 文件 等 各 级 别 的 

内 容 .背景 和 结构 都 应 被 完整 著录 ,上 下 级 别 之 间 在 内 
容 .背景 和 结构 上 的 继承 关系 应 被 充分 考虑 。 

(2) 各 级 别 的 著录 项 目 与 格式 应 遵循 一 定 标准 设 
定 , 以 实现 档案 的 内 容 .背景 和 结构 数据 的 充分 结构 
化 ,并 对 结构 化 数据 进行 充分 的 语义 描述 ,包括 所 有 数 
据 的 语义 内 容 .结构 .格式 和 关系 等 ,以 支持 数据 含义 
的 注解 与 抽象 化 定义 。 

(3) 在 分 析 档案 的 语义 关联 时 ,无 论 是 某 档案 向 
内 语义 组 织 向 外 语义 组 织 , 都 应 充分 考虑 内 容 、 背 景 、 
结构 各 自 内 部 语义 的 关系 ,以 及 内 容 、 背 景 . 结 构 之 间 
语义 的 关系 。 

(4) 根 据 不 同 服务 对 象 与 目的 ,档案 语义 组 织 框 
架 的 中 心 可 以 是 内 容 语义 ,也 可 以 是 背景 语义 ,结构 语 
义 一 般 围绕 内 容 语 义 或 背景 语义 进行 关联 。 例 如 , 当 


面向 历史 或 人 文 研究 时 ,档案 语义 组 织 的 中 心 应 选择 
内 容 语义 ,背景 和 机 构 语义 可 以 为 内 容 语义 的 理解 与 
相关 关系 的 建立 提供 关联 支持 ;当面 向 业务 支持 时 , 档 
案 语义 组 织 的 中 心 应 选择 背景 语义 ,内 容 语义 和 结构 
语义 可 为 机 构 背景 .业务 背景 .程序 背景 与 文件 背景 等 
提供 支持 。 

5.2 链 式 关联 原则 

链 式 关联 原则 是 指 在 建立 档案 内 容 、 背 景 与 结构 
语义 之 间 的 关联 时 ,应 尊重 且 遵 循 档案 内 容 .背景 和 结 
构 中 的 链条 式 逻 辑 。 链 式 关联 原 则 中 的 “ 链 " 包 括 : 

(1) 内 容 逻 辑 链 。 对 档案 内 容 语义 的 关联 主要 依 
据 内 容 逻 辑 链 ,包括 档案 内 容 中 所 涉 时 间 、 地 点 、 人 
物 .事件 (主题 ) 实物 要 素 的 各 自 变 化 与 要 素 之 间 的 
关系 及 关系 的 变化 ,常见 于 时 间 轴 、 位 置 变 迁 、 人 物 
网 络 .事件 叙事 、 实 物 变化 等 单 层 逻辑 ,以 及 基于 时 
间 轴 的 位 置 变迁 、 基 于 时 间 轴 或 位 置 变迁 的 人 物 网 
络 、 基 于 事件 叙事 的 人 物 网 络 或 实物 变化 等 双 层 或 
多 层 逻 辑 。 这 些 内 容 逻 辑 往往 符合 历史 或 人 文 研究 
的 科学 逻辑 。 基 于 内 容 逻 辑 链 的 档案 语义 组 织 以 内 
容 语义 为 中 心 。 

《2) 机 构 职能 链 。 对 不 同 机 构 不 同 档案 汇集 之 间 
的 向 外 语义 组 织 , 可 以 依据 机 构 之 间 的 职能 关系 分 
析 档 案 汇集 之 间 的 关系 。 因 此 ,基于 机 构 职 能 链 的 
语义 关联 主要 发 生 在 档案 汇集 层 , 以 背景 语义 尤其 
是 机 构 背 景 语义 为 中 心 ,对 档案 内 容 . 背 景 与 结构 语 
义 之 间 可 能 存在 的 关系 在 不 同 档案 汇集 之 间 进 行 关 
联 。 

(3) 业 务 流程 链 。 对 于 同一 业务 流程 中 所 产生 的 
文件 之 间 的 语义 关联 ,可 以 依据 业务 流程 链 , 即 文件 生 
成 时 所 参与 的 业务 活动 在 业务 流程 中 所 处 环节 和 位 
置 ,决定 了 文件 之 间 的 关系 。 在 日 趋 复杂 的 业务 环境 
中 ,一 个 业务 流程 链 可 能 在 一 个 部 门 完成 ,也 可 能 跨越 
一 个 机 构 的 多 个 部 门 ,甚至 跨越 多 个 机 构 。 因 此 根据 
业务 流程 链 开展 的 语义 关联 ,可 能 发 生 在 同一 文件 系 
列 中 的 不 同文 件 之 间 , 可 能 发 生 在 同一 档案 汇集 内 的 
不 同文 件 系 列 之 间 ,也 可 能 发 生 在 不 同 档案 汇集 的 某 
些 文件 之 间 。 基 于 业务 流程 链 的 档案 资源 语义 关联 将 
以 背景 语义 尤其 是 业务 背景 语义 作为 中 心 ,寻找 内 容 、 
背景 结构 中 更 多 的 相关 关系 。 

(4) 文 件 生命 周期 链 。 文 件 生命 周期 赋予 了 文件 
动态 性 ,表现 为 包括 文件 生成 、 转 递 .归档 、 长 期 保存 和 
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利用 的 程序 链 。 这 种 程序 链 从 管理 角度 说 明了 文件 在 
机 构 职能 、 业 务 流程 中 所 处 的 位 置 , 而 电子 信息 系统 能 
够 为 这 些 程序 留 下 数据 痕迹 。 文 件 生命 周期 链 对 于 一 
份 文件 的 内 容 .背景 与 结构 语义 之 间 的 关系 的 建立 至 
关 重 要 ,尤其 是 文件 .责任 者 系统 环境 等 之 间 的 关系 。 
基于 文件 生命 周期 逻辑 的 档案 资源 语义 组 织 可 以 程序 
背景 语义 为 中 心 , 寻 找 结构 语义 或 内 容 语义 与 其 的 关 
这 

(5) 以 上 四 种 链 式 逻辑 的 组 合 。 对 于 档案 语义 组 
织 来 讲 ,向 内 组 织 向 外 组 织 同 样 重要 ,将 内 容 逻 辑 链 、 
机 构 职能 链 业务 流程 链 ,文件 生命 周期 链 集合 起 来 开 
展 语 义 组 织 ,能 够 发 现 更 多 的 语义 中 心 和 关系 网 络 , 实 
现 档案 汇集 之 间 - 档案 汇集 内 文件 系列 之 间 - 文件 系 
列 购 文件 之 间 - 文件 内 数据 之 间 的 多 层 网 络 化 关联 。 
5 入 -网络 多 维 原则 
CO 网 络 多 维 原则 是 指 经 档案 语义 组 织 所 形成 的 档案 
星 所 网络 应 该 是 一 个 非 叭 一 中 心 的 多 维 网 络 , 能 够 支 
持 钴 角度 ,多 维度 的 检索 查询 与 智能 化 服务 。 在 继承 
和 -为 展 传统 的 强调 等 级 关系 的 层 累 制 组 织 方法 基础 
八条 案 语义 组 织 更 强调 相关 关系 的 网 络 化 组 织 。 在 
这 2 网络 中 ,没有 唯一 的 中 心 ,而 是 不 同 层级 中 的 内 
从 背景 和 结构 中 的 任何 一 个 语义 单元 都 可 以 成 为 中 
心 5 谭 按 照 链 式 关 联 的 原则 向 外 发 散 与 其 他 语义 单元 
十 和 关 了 网 络 多 维 原则 中 的 “多 维 " 包 括 两 种 基本 
维度 和 一 种 交叉 维度 : 
己 () 基 于 同一 层级 档案 内 容 . 背 景 .结构 语义 之 间 
关 钢 的 横向 数据 网 络 。 

(2) 基 于 上 下 层级 之 间 档 案 内 容 . 背 景 结 构 语义 
之 间 关 联 的 纵向 数据 网 络 。 

(3 ) 基 于 不 同 层级 之 间 档 案 内 容 .背景 .结构 语义 
之 间 关 联 的 交叉 数据 网 络 。 

多 种 维度 的 数据 网 络 的 建立 能 够 为 用 户 提供 不 同 
的 检索 点 ,为 档案 在 同一 层级 .上 下 层级 ,间隔 层级 之 
间 的 扩 检 缩 检 改 检 等 提供 支持 ,并 为 档案 资源 可 视 
化 范围 与 结构 的 灵活 多 变 提供 了 可 能 。 多 维 、 去 中 心 
的 网 络 化 组 织 是 档案 语义 组 织 的 基本 理念 ,也 是 最 终 
档案 资源 语义 组 织 所 构建 出 的 富 含 语义 的 数据 网 络 的 
基本 特征 。 


6 结语 


为 实现 档案 数据 化 “机 器 可 理解 "”“ 机 器 可 操作 ” 


的 核心 目标 ,档案 语义 组 织 从 数据 的 含义 以 及 数据 含 
义 之 间 的 关联 出 发 ,对 档案 内 容 .背景 与 结构 数据 进行 
语义 层面 的 序 化 、. 聚 类 与 关联 ,形成 基于 多 级 著录 成 果 
的 多 级 语义 网 络 ,将 档案 汇集 内 各 文件 之 间 和 文件 
的 内 容 .背景 与 结构 之 间 关 联 起 来 ,也 将 不 同 档案 汇 
集 以 及 档案 汇集 与 其 他 领域 数据 集 之 间 关 联 起 来 ， 
构建 起 富 含 语 义 与 语义 关系 的 领域 数据 网 络 , 以 支 
持 未 来 更 多 元 技术 背景 下 的 档案 细 颗 粒 开 发 与 智能 
化 应 用 。 

档案 语义 组 织 不 是 一 个 从 零 开 始 的 全 新 过 程 , 既 
有 的 档案 信息 组 织 工具 方法 与 成 果 , 能 够 为 档案 语义 
组 织 黄 定 良好 基础 。 例 如 ,已 有 的 档案 著录 规则 经 过 
本 体 化 后 ,能 够 支持 语义 著录 ;已 有 的 档案 著录 和 标注 
数据 ,经 过 形式 化 表达 后 ,能够 支持 档案 关联 数据 集 的 
建立 等 。 这 些 都 是 档案 语义 组 织 在 实践 层面 的 具 化 路 
径 。 但 总 体 上 讲 ,档案 语义 组 织 仍 然 要 经 过 语义 含义 
明确 化 .编码 形式 化 .关联 链接 化 的 过 程 。 未 来 可 能 
现 的 更 多 语义 技术 将 为 档案 语义 组 织带 来 新 的 方法 ， 
但 档案 语义 组 织 的 原则 应 当 始 终 遵 守 , 只 有 在 尊重 档 
案 资 源 特 性 和 管理 专业 性 的 基础 上 ,才能 探索 出 更 多 
的 档案 语义 组 织 落地 方案 。 
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The Connotation, Characteristics and Principle Analysis of Semantic Organization 
in the Process of Archival Datalization 
Qi Tianjiao Feng Huiling 
School of Information Resource Management, Renmin University of China, Beijing 100872 
Abstract: | Purpose/significance | In the stage of archival datalization, archival utilization and service need to 
meet the new needs on the data level breaking through the limitation of page level reading and file level using. This 
requests a new semantic organization mode for archives, supporting deep mining and analysis on the data in archival 
content, context and structure , to prepare resource, methods and technologies for archival value enrichment, resource 
development and intelligent knowledge services. | Method/process| Based on the phase characteristics of archival 
datalization, through literature investigation and cases study, this paper analyzed the basic connotation of archival se- 
mantic, semantic relation and semantic organization, compared the differences and features of archival semantic or- 
ganization with the semantic organization of other information resources, and explored the theoretical framework of ar- 
elival inward and outward semantic organization under the principles of semantic integrity, chain association and 
[ialti -dimensional network. | Result/ conclusion | Archival semantic organization is carries out based on the meaning 
Cang linkage of data, aimed at finding the semantic relation from the content, background and structure data of ar- 
CEBives. The archival semantic organization is the key link to realize the archival datalization and the key step to real- 
1ze the archival machine-understandable and machine-operable. Through archival semantic organization, the original- 
Cscattered , disturbed and field-dependent archival content, background and structure data, could have clear defini- 
Gfdn, formal expression and associated links. Archival data could be machine-understandable and machine-operable. 
ls possible for archival resources to be organized, preserved and used automatically with linkages, thus eventually 


Gabport the intelligent acquisition and utilization of archives based on human-machine and machine-machine interac- 
本 


on. 
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